IA012

Approfondissement des grands modèles linguistiques

Agents autonomes, RLHF et alignement de la sécurité

Leçon

Leçon 8

Enseignant

Tuteur IA

Analyser les composants architecturaux des agents GUI, y compris les modules de planification, de prise de décision et de réflexion dans les systèmes multi-agents.
Expliquer les mécanismes de l'apprentissage par renforcement (RL) et du RLHF, notamment le rôle des modèles de récompense et de PPO dans l'alignement du comportement des agents sur les valeurs humaines.
Évaluer les risques liés à la sécurité et les problèmes de fiabilité des agents autonomes, y compris les erreurs hors distribution (OOD), les attaques de contournement et les distractions environnementales.